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本 


摘 要 : 协同 过 滤 是 信息 过 滤 和 推荐 系统 中 应 用 最 广泛 的 技术 ， 但 是 在 数据 处 理 中 存在 数据 稀疏 问题 ， 影 响 推 荐 算法 
的 准确 性 。 提 出 融合 协同 过 滤 和 XGBoost 的 推荐 算法 ,根据 用 户 对 项 目的 评价 以 及 项 目 本 身 所 具备 的 自身 特点 ， 挖 气 
项 目 和 用 户 的 潜在 关系 ， 提 高 算法 的 推荐 准确 性 。 采 用 百度 深度 学 习 框 架 PaddlePaddle 在 Book-Crossings 数据 集 上 进 
行 实验 ， 实 验 结 果 表 明 ， 提 出 的 算法 和 文献 中 两 种 算法 相 比 ， 准 确 性 有 显著 提升 。 
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Abstract: Collaborative filtering plays an important role in recommendation system and is the most successful and widely used 


technology in information filtering and information system. However, collaborative filtering has a sparse problem in data 
= processing, which affects the accuracy of the proposed algorithm. This paper proposed a recommendation algorithm combining 
collaborative filtering and XGBoost to explore the potential relationship between the project and the user based on the user's 
evaluation of the project and its own characteristics. It improved the recommendation accuracy of the algorithm. The results of 
experiments on the book-crossings data set using the baidu deep learning framework paddlepaddlepaddles show that, Compared 


with the two algorithms in the literature, the accuracy of the proposed algorithm is significantly improved. 
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¢ 其 他 相似 用 户 的 反馈 信息 、 提 高 个 性 化 学 习 的 速度 。 但 实际 应 
一 用 中 会 出 现 数据 稀疏 性 8 问题 、 数 据 增加 情况 下 的 扩展 性 5 
随 着 近 些 年 来 网 络 环境 的 迅速 发 展 ， 网 络 信息 的 霜 盖 正在 ”问题 、 冷 启动 上 9 问题。 数据 稀疏 性 是 在 用 户 对 项 目 评价 很 少时 ， 
遍及 本 文 所 需要 的 各 个 方面 。 人 们 在 线 获取 的 数据 也 越 来 越 基于 用 户 的 评价 所 得 到 的 用 户 间 的 相似 性 可 能 达 不 到 预期 效果 ， 
富 ， 但 却 导致 了 数据 量 急速 增长 ， 根 据 数 据 统计 结果 表示 ,在 。 ”最 后 会 影响 推荐 的 准确 性 ， 扩 展 性 问题 是 ， 在 数据 量 很 大 时 或 
每 分 钟 时 间 内 ，Facebook 的 活跃 用 户 会 在 网 络 上 分 享 大 约 68.4 ”新 加 入 大 量 信息 后 ,不 能 及 时 找 出 相似 度 很 高 的 用 户 项 目 关系 ， 


IT 


万 比特 的 信息 , Twitter 用 户 则 会 发 出 超过 10 万 条 , 世界 上 90% ”从 而 无 法 实现 实时 推荐 。 冷 启动 问题 是 当 新 用 户 与 新 项 目 加 入 
的 数据 产生 在 2010 一 2012 年 ， 到 2020 年 ， 全 球 信息 总 量 将 会 ”推荐 系统 时 , 因为 没有 相应 的 历史 数据 ,无 法 进行 相似 度 计 算 ， 

是 2011 年 的 22 倍 ,达到 35.2ZBM。 但 其 中 有 很 多 属于 无 关 见 。 ”从 而 无 法 产生 有 效 推荐 。 
余数 据 ， 这 导致 了 “信息 超载 中 (information overload)” 问 题 ， 针对 上 述 问题 , 已 有 许多 相关 研究 。 文 献 [13] 提 出 两 阶段 联 
网 络 世界 被 信息 所 包围 , 正在 从 IT(information technology) 走 向 合 聚 类 评分 方法 ， 聚 类 后 的 矩阵 维度 远 远 小 于 原始 矩阵 维度 ， 

DT (data technology) 时 代 B]， 因 此 ， 推 荐 系统 向 应 运 而 生 ,， 成 减少 计算 量 的 同时 又 提高 了 精准 度 ,但 算法 须 依靠 评分 的 权重 ， 

为 帮助 用 户 获取 有 效 信息 的 必要 工具 ， 作 为 一 种 解决 信息 量 超 ”预测 得 到 的 评分 可 靠 度 不 高 。 文 献 [14] 提 出 了 奇异 值 分 解 (SVD) 
载 的 过 滤 技术 ， 起 到 了 重要 的 作用 。 解决 维度 问题 ， 解 决 了 数据 量 增 加 情况 下 的 扩展 问题 ， 但 在 数 
在 推荐 系统 发 展 中 ， 协 同 过 滤 辐 仍 占据 着 主导 位 置 。 协 同 。”” 据 量 很 大 时 十 分 耗费 时 间 , 不 利于 使 用 ,文献 [15] 提 出 了 融合 社 
过 滤 能 够 过 滤 机 器 难以 自动 进行 内 容 分 析 的 信息 ， 有 效 地 利用 ” 交 信 息 的 矩阵 分 解 推 荐 方法 ， 通 过 社交 信息 能 够 更 加 准确 的 挖 
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掘 兴 趣 爱好 , 并 通过 好 友 关 系 提高 了 推荐 的 精准 度 , 在 文献 [16] 
中 提出 了 XGBoostt7 算 法 在 电子 商务 商品 推荐 中 的 应 用 ,不 足 
在 于 未 能 联系 用 户 以 往 的 行为 特征 ， 推 荐 存在 缺陷 。 

本 文 为 了 解决 数据 的 稀 朴 性 提出 了 一 种 融合 协同 过 
XGBoost 的 推荐 算法 
recommendation algorithm with collaborative filtering, XGBCF ) 
通过 协同 过 滤 构 建 用 户 间 的 相似 矩阵 和 项 目 间 的 相似 矩阵 计算 
相似 度 ， 根 据 最 近邻 关系 组 成 相似 集合 对 ， 生 成 训练 集 ， 再 利 
用 XGBoost 对 训练 集 进行 拟 合 ， 得 出 最 佳 权 值 和 学 习 率 ， 利 用 
目标 函数 进行 分 类 ,推荐 给 用 户 ， 提 高 了 推荐 的 准确 性 。 


1 ”相关 工作 
1.1 协同 过 滤 算 法 
过 滤 和 


办 同 过 滤 (collaborative filtering recommendation) 在 信息 去 
信息 系统 中 是 一 种 常用 的 技术 ， 是 集体 智慧 的 一 种 典型 体现 ， 

其 原理 是 对 用 户 的 历史 行为 进行 分 析 和 挖掘 ,发 现 用 户 的 偏好 ， 
基于 不 同 的 兴趣 偏好 对 用 户 进行 群 组 划分 。 最 主要 的 功能 为 预 
测 和 推荐 ， 协 同 过 滤 主 要 分 为 两 类 : 基于 用 户 的 协同 过 滤 算 法 
Cuserbased collaborative filtering) 和 基于 项 目的 协同 过 滤 (item-based 


寸 滤 和 


( eXtreme Gradient Boosting 
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其 中 : U 表示 的 是 所 有 评 过 分 数 的 用 户 集合 ， 


R 表示 的 是 对 项 


i 的 平均 打分 ，R, 标志 的 是 对 项 目 j 的 平均 打分 。 皮 尔 森 相 


关系 数 用 于 计算 两 个 用 户 联 系 的 紧密 程度 ， 取 值 在 [-1,1]。 
协同 过 滤 预 测评 分 公式 定义 为 
D0 一 万 )*sina(ty) 
War G) 


其 中 : Ri 表示 用 户 v 对 为 评分 项 目 i 的 预测 值 ，V 表示 的 是 最 
近邻 中 拥有 待 评分 项 i 的 用 户 集合 。 
Top-N 算法 是 一 种 按照 一 定 规则 对 数据 进行 排序 的 算法 ， 
在 本 文中 将 本 文 提出 的 算法 (XGBCF ) 的 结果 通过 式 (3 ) 计算 
未 对 项 目 评分 用 户 的 预测 评分 值 , 然后 把 预测 值 按照 降序 排列 ， 
产生 推荐 列表 ， 推 荐 给 用 户 。 
1.2 XGBoost 算法 
XGBoost 全 称 为 extreme gradient Boosting, 是 华盛顿 大 学 陈 
天 奇 博 士 2014 年 在 GBDT 算法 基础 上 对 Boosting 算法 提出 的 


collaborative filtering)， 基 于 用 户 的 协同 过 滤 算 法 分 析 了 用 户 的 历 
史 行 为 ， 找 出 用 户 感 兴趣 的 内 容 或 项 目 ， 并 根据 不 同 用 户 对 相 
同 项 目的 打分 ， 分 析 他 们 的 偏好 程度 ， 计 算 相 似 度 ， 从 而 在 相 
似 用 户 间 进 行 推荐 。 基 于 项 目的 协同 过 滤 原 理 和 基于 用 户 的 协 
同 过 滤 相 似 ， 只 是 在 计算 相似 度 的 时 候 关 注 的 是 项 目 本 身 ， 也 
就 是 说 根据 用 户 对 项 目的 偏好 找到 相似 的 项 目 ， 其 步骤 为 先 计 
算 已 评价 项 目 和 待 预测 项 目的 相似 度 ， 并 以 计算 出 的 相似 度 作 
为 权重 系数 ， 通 过 权重 控制 已 评价 项 目的 分 数 ， 得 到 待 预测 项 
目的 预测 值 。 与 已 评价 的 进行 比较 ， 如 果 预 测 值 和 已 评价 的 较 
相近 便 进 行 组 合 推荐 。 

关于 相似 度 的 计算 ， 现 有 的 几 种 基本 方法 都 是 基于 向 量 下 
的 相似 度 计 算 ， 即 计算 向 量 之 间 的 距离 ， 距 离 越 近 ， 他 们 的 相 
似 度 越 大 。 推 荐 的 情况 下 ， 在 用 户 物 品 偏好 的 二 维和 矩阵 中 ， 本 
文 可 以 通过 将 用 户 对 所 有 物品 的 偏好 作为 矢量 来 计算 用 户 之 间 
的 相似 度 ， 或 者 将 所 有 用 户 对 某 个 项 目的 偏好 作为 矢量 来 计算 


项 目 之 间 的 相似 度 。 其 常用 的 相似 度 包括 : 皮尔 森 相关 系数 


(Pearson correlation coefficient，PCC)， 人 余弦 相 似 性 [9 等 。 
余弦 相似 度 (cosine similarity) 计算 公式 如 下 : 


> R ui 


有 让 Se 
j 户 4 和 v 的 相似 度 , I 为 两 个 用 户 都 评 过 分 
j 户 u 对 项 目 i 的 评分 ， 表示 的 是 用 户 v 


Sim(u,v) = 


(1) 


其 中 : 所 求 的 是 上 
的 项 目 ， 太 ;表示 | 
对 项 目 i 的 评分 。 
皮尔 森 相 似 系数 (Pearson correlation coefficient) 定义 为 
ZR —R)(R,, -—R,) 


本 


Sim(u,v)= 


2 


的 一 种 改进 ， 内 部 决策 树 使 用 的 是 回归 树 ， 具 有 速度 快 ， 效 果 
好 ， 能 够 处 理 大 规模 数据 ， 自 定义 损失 函数 等 一 系列 特点 。 它 
采用 了 弱 分 类 器 的 逐次 迭代 计算 ， 提 高 分 类 的 精确 性 。 算 法 相 
关 原 理 如 下 : 
树 的 复杂 性 定义 为 
三 (CO =WwmweR ,geR’ —> {1,2,...,7} (4) 


其 中 : q 表示 的 是 树 的 结构 ，w 表示 叶子 权重 部 分 。 
改进 的 复杂 度 函 数 为 


QF) + G) 
其 中 : T 为 叶子 节点 个 数 ， 邮 表示 的 是 每 个 叶子 节点 上 面 输出 
分 数 的 La 模 平 方 ，y 和 4 在 最 终 的 模型 公式 中 控制 这 部 分 的 比 
重 .这 样 就 可 以 衡量 模型 的 复杂 性 ， 从 而 有 效 控制 过 拟 合 。 
改写 的 目标 函数 : 
OW" = 20o， PY)) + gf(%) 


(6) 
3h (x)]+Q(f)+constant 


数 ， 2 (f) 为 正则 化 项 , 包含 Li.L2 正则 化 ， 
函数 依赖 于 


其 中 :/! 就 是 损失 函 
constant 为 常数 项 , 通过 式 子 可 以 看 出 , 最 终 的 目标 函 
每 个 数据 点 的 在 误差 函数 上 的 一 阶 和 二 阶 导 数 。 

利用 式 (6) 对 目标 函数 再 次 改写 ， 其 中 1 被 定义 为 每 个 叶 
子 节点 上 面 样本 集合 1 ={i|4(%)= 放 。 


n ] 
OU sgf 0) + Fh OHA) 


=>[ Og)w, 十 二 2 +Mw7] + 
jl iel) 


ie 万 
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定义 $ 用 户 对 项 目 评分 矩阵 R, 其 中 Ry 表示 的 是 用 户 p 
化 简 为 Opj = Dow + + Dltr 07) 和 
各 对 项 目 m 的 评分 。 
对 wj 进行 求 导 ， 令 导数 为 0 可 以 得 到 : 表 3 项 目 评分 矩阵 
6G, Table3 Item scoring marix ifeature 
H; 十 多 户 i i2 13 pg Im 
把 wi 最 优 解 代 入 得 到 标 函 数 : Ul R11 R12 R13 5 及 1 
1 G? U2 R21 R22 R23 pi Rym 
Obji = 一 二 十 思 
3H 十 了 名 00 pr 0 多 0 Er 
其 中 : IT 为 叶子 节点 的 个 数 ，4 和 7 为 比重 系数 ,防止 过 拟 合 的 wy Rp Ry2 Rp Rym 
产生 : 2.3 ”算法 描述 


本 算法 包括 生成 训练 样本 集 ，XGBoost 精准 分 类 处 理 和 生 
成 推荐 三 个 步骤 ， 


2 ”融合 协同 过 滤 和 XGBoost 的 推荐 算法 构建 


2.1 算法 思想 1) 生 成 训练 样本 集 
因 每 个 用 户 对 项 目的 评价 有 限 ， 在 构建 用 户 行 为 矩阵 时 会 输入 : 经 过 数据 清洗 的 用 户 特征 矩阵 ufeature, 经 过 数据 清 
存在 大 量 空 值 ,为 了 解决 此 问题 , 本 算法 根据 用 户 的 以 往 行为 ， 洗 的 项 目 特征 矩阵 过 ature， 用 户 对 项 目的 评分 矩阵 信 ， 用 户 集 
挖掘 用 户 间 关 系 和 用 户 项 目 间 关 系 ， 通 过 已 评分 项 目 构建 用 户 合 U， 项 目 集合 I。 
对 和 用 户 项 目 对 ， 并 分 别 计算 相似 度 ， 构 建 相似 和 矩阵， 计算 每 输出 : 训练 样本 集 。 
个 用 户 对 其 他 用 户 及 项 目的 相似 性 ， 对 计算 结果 进行 排序 ， 组 处 理 流程 : 
成 最 近邻 集合 ， 通 过 协同 过 滤 预 测评 分 公式 ， 得 到 预测 评分 ， a) 在 用 户 一 项 目的 评分 矩阵 中 找 出 已 经 评分 的 项 目 集合 I 
再 利用 XGBoost 算法 进行 分 类 ， 计 算出 分 类 错误 率 ， 通 过 权 值 和 已 经 对 项 目 评 过 分 数 的 用 户 集合 U。 
和 学 习 率 的 更 新 ， 找 出 分 类 错误 的 样本 ， 并 重 置 权重 ， 达 到 提 b) 把 上 述 的 工 和 UU 分 别 拆 分 成 两 个 为 一 组 的 用 户 对 集合 
高 算法 精准 度 的 效果 ， 最 后 利用 top-N 生成 推荐 列表 展示 给 用 。 upair={<wyw>wwueU} 和 项 目 对 集 合 
站 ipair ={<i,i, Si,i, el}, 
2.2 算法 相关 定义 0) 找 出 upair 和 ipair 拆 分 的 数据 对 在 ifeature 和 wfeature 
定义 1 用 户 集 合 U, 共 有 n 个 用 户 , 下 标 表示 用 户 的 索引 。 所 对 应 的 位 置 , 然后 用 式 (1) 计 算出 用 户 对 相似 度 sim(w,4) ， 
U = {UU} 利用 式 〈2) 计算 项 目 对 相似 度 sim(i,,i) 。 
定义 2 ”项目 集合 I， 共 有 m 个 项 目 ， 下 标 表 示 项 目的 索引 。 gd 循环 前 三 个 步骤 , 得 到 所 有 用 户 和 所 有 项 目 对 应 相似 性 ， 
7 三 (7 分 别 构建 用 户 相似 度 矩 usim(m,m) 和 项 目 相 似 度 矩阵 isim(n,n) 。 
定义 3 表 1 中 为 项 目 和 特征 的 交叉 ， i 表示 的 是 第 m 6) 计算 每 个 用 户 在 用 户 相 似 度 矩 阵 的 相似 性 ， 对 计算 结果 
个 项 目的 第 n 个 特征 . 进行 排序 ， 将 相似 度 最 高 的 n 个 用 户 组 合成 用 户 最 近邻 集合 
1 项目 特征 矩阵 ifeature 入 ,={(U1 ,Ww…)|ueusim} ， 同 样 方式 组 合 项 目 最 近邻 集合 
Tablel Item feature marix ifeature N,={(i,b...) |ieisim} 。 
项 A 有 记 村 Jn 了 遍历 用 户 对 项 目的 评分 矩阵 人 R, 选 出 项 目 i 对 应 的 最 近邻 
i ifi1 ifi2 ifi'3 必 ifin 集合 N, 。 根据 式 (3) 计算 出 用 户 p 对 项 目 n 的 预测 评分 p,，， 
请 hp 2 fs 时 fn 把 预测 值 和 原始 用 户 -项 目 矩阵 中 的 差 值 记 作 兰 , 同 理 选 出 用 户 
有 u 对 应 的 最 近邻 集合 W ， 利 用 式 (3) 计算 出 用 户 p 对 项 目 n 
in if1 if2 ifn3 村 加 的 预测 评分 PB,， 把 预测 值 和 原始 用 户 -项 目 和 矩阵 中 的 差 值 记 作 
定义 4 用 户 特征 矩阵 wfeature 表格 中 Ug 为 用 户 和 特征 X; ， 最 后 把 上 面 得 到 的 差 值 和 R; 组 合成 新 的 数据 集 
的 交叉 ， 表 示 的 是 第 p 个 用 户 的 第 q 个 特征 。 data ={ {Xi, xX, R,}liel,ueU,R,,eR} 
表 1 用 户 特 征 和 矩阵 ufeature 2)XGBoost 分 类 
Table2 User feature marix ufeature 输入 : 训练 集 样本 。 
户 A A 记 村 hp 输出 : 分 类 结果 。 
加 uf ufi2 os 要 ufip 处 理 流程 : 
2 zj ufy2 uf 可 ufzp a) 将 所 有 的 训练 样本 赋予 相同 的 权重 w。 
b) 采 用 XGBoost 算法 进行 分 类 , 迭代 mY FE 用 下 面 的 公 


uy wf wa? wi cs 式 计算 分 类 错误 率 : 
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录用 定稿 崔 岩 ， 等 
_ .010 #6,%) 
rh > 四 (9) 
其 中 : w 表示 第 1 个 样本 的 权重 ，G 代表 的 是 第 m 个 分 类 器 。 
c) 更 新 学 习 率 : 
CQ =310g(( er)/ err,) (10) 
这 样 做 的 目的 是 通过 剪 枝 防 止 过 拟 合 的 产生 ， 同 时 降低 了 
生成 树 的 规模 ， 保 证 迭代 样本 空间 ， 在 之 后 的 学 习 率 计算 中 可 
以 通过 迭代 更 新 学 习 率 。 


gj) 反 复 进行 步骤 了 b)c), 得 到 相应 的 错误 率 , 然后 重 置 第 n 个 
样本 的 权重 为 m = Ge 


OO *e” 


6) 在 经 过 多 次 迭代 后 ， 通 过 更 新 学 习 率 和 权重 系数 找 出 分 
类 错误 的 样本 ， 并 进行 权重 重 置 ， 这 样 便 可 以 得 到 更 加 精确 地 
分 类 。 

3) 生 成 推荐 列表 

输入 : 数据 集 data， 用 户 u 在 data 中 的 数据 。 

输出 : 用 户 u 的 推荐 列表 。 

a) 构 建 回归 树 ， 将 数据 集 以 标签 的 形式 作为 根 节点 输入 。 

b) 根 据 式 (8) 所 示 的 目标 函数 建立 XGBoost 模型 ， 因 为 
XGBoost 有 可 以 自 定义 损失 函数 的 特点 ， 在 这 里 将 损失 函数 定 
义 为 logistic 损失 函数 。 

ly,$)= ynd+e™)+(—y)Ind+e’) (11) 


其 中 世 表 示 实 际 值 ， 六 标志 的 是 预测 值 。 

co) 对 损失 函数 求 二 阶 偏 导数 , 利用 式 (10) 更 新 学 习 率 , 调 
整 权重 参数 ， 代 入 到 式 (8) 中 ， 得 到 XGBCF 模型 。 
d) 利 用 XGBCF 模型 对 用 户 u 未 评分 的 项 
利用 top-N 产生 推荐 列表 反馈 给 用 户 使 用 。 


3 


进行 预测 评分 ， 


3 ”算法 验证 


3.1 


本 文采 | 
crossingP0 数 


众 


水 ， 


的 数据 集 是 由 Cai-Nicolas Ziegler 提供 尼 
数据 集 由 三 部 分 组 成 , 分 别 为 用 户 信 息 数 据 
图 书信 息 数据 集 和 用 户 评分 数据 集 ， 其 中 用 户 数 据 集 包 括 
| 人 口 统计 信息 (位置 年龄)， 如 表 4 所 示 ， 

和 各 自 的 ISBN 进行 标识 。 无效 信息 已 从 数据 集中 删除 。 
此 外 ， 还 提供 了 一 些 基 于 内 容 的 信息 (“ 书 名 *“ 作 者 ”“ 出 版 日 
期 “出 版 商 " )， 如 表 5 所 示 ， 评 分 数据 集 包 含 了 1,149,780 条 
评分 信息 , 包含 了 278,858 位 用 户 对 271,379 本 图 书 的 评分 , 评 
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图 书信 息 特征 
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Table 5 Example ofbook information characteristics 


书 名 作者 出 版 年 份 出 版 商 
Classical 
Mark p.o.morford 2002 Oxford university 
mythology 
Decision in Richard bruce 
2001 HarperFlamingo canada 
Normandy wright 
More Cunning T Amy Tan 2005 Berkley publish group 
3.2 度量 标准 
本 文 实验 采用 平均 绝对 误差 (mean absolute error,MAE) 度量 分 
类 准确 性 ,MAE 在 评分 区 间 上 做 了 归 一 化 处 理 ， 定 义 如 下 : 计 
算 结果 越 小 ， 预 测 越 精准 ， 推 荐 效果 越 好 。 
1 
MA4E = 一 2 Ir -rh|(12) 
| E (u,a)eE? 
其 中 : i 表示 用 户 对 商品 a 的 真是 评分 ，n 表示 的 是 用 户 
对 商品 a 的 预测 评分 ，E? 表示 的 是 测试 集 。 


3.3 ”实验 结果 


与 分 析 
姑 实 验 中 不 同 参 数 会 影 
数据 集 来 确定 一 系列 最 优 参数 ， 再 


向 算法 实验 效果 ， 所 以 先 通过 拟 合 
进行 算法 的 比较 ， 


上 文 已 经 


提 及 ， 
似 度 


本 文 的 用 


D) 学 习 率 计算 


学 习 率 控制 
会 导致 收敛 过 慢 ， 
习 率 在 0.1~1 变化 ， 通 过 实验 
平均 绝对 误差 (MAE) 达到 全 局 最 小 值 ， 


=0.3 时 ， 


算法 


户 间 相似 度 
修正 的 余弦 函数 相似 | 


由 皮尔 逊 相关 系数 计算 ， 项 


而 过 大 又 会 导致 代价 本 


生计 算 。 


损失 梯度 调整 权 值 的 速度 ， 
数 动荡 ， 在 这 里 让 学 


图 像 (1) 可 


学 习 率 的 增长 而 


Fig.1 


变化。 


目 间 相 


过 小 的 学 习 率 


以 看 出 ,在 学 习 率 a 


且 不 再 随 着 


05 
学 习 率 a 


图 1 


2) 最 近邻 数 


最 近邻 数 是 影 


级 (Book-Rating) 是 明确 的 ， 区 间 从 1-10〈 更 高 的 值 表示 更 高 
的 评价 ) 也 就 是 有 更 高 的 兴趣 。 实 验 中 将 数据 集 的 75% 作 为 训 
练 集 ，25% 作 为 测试 集 。 
二 4 


示例 


户 信息 特征 


Table 4 Example ofuser information characteristics 


户 id 年 龄 位 置 
| 18 Stock california 
之 51 Black mountain 


学 习 率 对 


向 推荐 精准 


学 习 率 ， 在 这 是 


变化 ， 通 过 实验 求 
最 近邻 数 的 增 力 


再 变化 , 如 图 


0， 本 文 提 


有 固定 学 习 率 a 
最 佳 最 近邻 数 ， 根 据 图 
出 的 融合 算法 的 了 
上 升 ， 在 最 近邻 数 k=125 时 达到 全 


3 所 示 , 最 近邻 数 K 在 10~75 区 


=0.3， 让 最 近 


度 的 关键 因素 ， 
邻 数 在 10-200 之 间 


F 均 绝对 误差 的 影响 


Influence of learning rate on mean absolute error 


本 文 已 求 出 最 


F 均 绝对 误差 逐 


2 所 示 ， 随 着 用 户 
浙 减 
局 最 小 值 并 不 
间 变 化 时 , XGBCF 


的 平均 绝对 误差 震荡 ， 随 后 增 大 k 值 ， 平 均 绝对 误差 (MAE) 


持续 减 小 ， 


度 上 升 , 项 目 


MAE 达到 最 小 ， 


且 不 


再 发 生 


变化 ， 推 荐 精准 


最 近邻 数 k=125 时 , XGBCF 的 


率 保持 不 变 。 
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因此 ， 针 对 于 本 文 算法 (XGBCF)， 分 别 设置 用 户 最 近邻 
数 为 125， 项 目 最 近邻 数 为 125， 学 习 率 a =0.3， 进 行 实验 。 


近邻 K 对 平均 绝对 误差 的 影响 


图 2 户 近邻 对 平均 绝对 误差 的 影响 


Fig.2 ”Influence ofuser neighbour on mean absolute error 


近邻 K 对 平均 绝对 误差 的 影响 


T T T T T T T 
20 40 60 80 100 120 140 160 180 200 


项 目 最 近邻 个 数 


图 3 项 目 近邻 对 平均 绝对 误差 的 影响 
Fig.3 Influence of item neighbour on mean absolute error 
3) 算 法 分 析 及 对 比 
本 文 提出 的 算法 (XGBCF) 因 加 入 了 决策 树 ， 在 构建 算法 


时 便 对 用 户 以 及 项 目 进 行 了 初步 分 类 , 减少 了 后 续 的 分 类 过 程 ， 
在 拟 合 过 程 中 能 够 求 出 最 优 参数 ， 达 到 了 更 精确 的 分 类 ， 推 荐 
准确 性 也 随 之 提高 , 将 本 文 算法 与 文献 [13] 和 文献 [14] 算 法 进行 
对 比 ， 根 据 图 像 (4) 可 以 看 出 ， 本 文 提 出 的 融合 协同 过 滤 和 
XGBoost 的 推荐 算法 的 平均 绝对 误差 (MAE) 小 于 文献 中 提 到 
的 算法 ， 可 知 本 文 提出 的 推荐 算法 准确 性 较 文献 中 两 个 算法 算 
法 有 显著 提高 。 


不 同 k 值 对 MAE 的 影响 


09 
08 
os 
05 
04 
0.2 
0.1 
0 
125 150 
近邻 数 
SVDCF 。 三 Block clust 。 国 XGBCF 
图 4 算法 结果 对 比 
Fig.4 Comparison ofalgorithm results 
4 。 结束语 


本 文 提出 融合 协同 过 滤 和 XGBoost 的 推荐 算法 , 通过 构建 
] 户 间 的 相似 矩阵 和 项 目 间 的 相似 矩阵 计算 相似 度 ， 根 据 最 近 
邻 关 系 组 成 相似 集合 对 ， 生 成 训练 集 ， 再 利用 XGBoost 对 训练 
集 进行 拟 合 ,得 出 最 佳 权 值 和 学 习 率 ,利用 目标 函数 进行 分 类 。 
最 后 生成 推荐 列表 推送 给 用 户 ， 本 文 算法 克服 了 因数 据 稀 疏 导 


六 


y 
A 


致 
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的 推荐 准确 性 不 足 的 现象 ， 通 过 实验 验证 准确 性 较 传 统 协 同 


过 滤 有 显著 提高 ， 下 一 步 的 工作 将 继续 基于 推荐 系统 的 特征 提 


取 


和 安全 问题 进行 进一步 研究 。 
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